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Статья посвящена описанию аспектов организации модели данных для программной системы 
русско-украинско-английского терминологического словаря. В статье описан подход к разбору входных 
данных. Проведен анализ ошибок возникших при обработке входных данных и методы их решения. 
Приведено сравнение подходов для хранения данных для трехъязычных словарей. Преимуществом 
предложенной системы является равноправие языков, при котором основным языком можно назначать 
любой из представленных. 
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Введение 

Современный мир невозможно представить без компьютеризированных систем. 
Они проникли во все сферы жизни от систем управления производственными про- 
цессами, до систем «умных» домов, на них основываются и простые веб-сайты, и 
сложные информационные порталы. Развитие лексикографии также не стоит на месте, 
работа лексикографа переводится в электронную форму, на смену бумажным словарям 
приходят электронные, которые доступны в том числе и через интернет. Компью- 
теризация процессов сбора текстовой информации позволяет упрощать анализ и 
дальнейшую ее обработку. Поэтому разработка электронных словарей является 
необходимой базой для дальнейшего развития систем интеллектуальной обработки 
естественной речи. 

В данной статье предлагается подход к построению модели данных для 
трехъязычного терминологического словаря по информатике и радиоэлектронике. 
Кроме того, в данной статье описаны проблемы, связанные с представлением, 
обработкой и хранением данных. Описанные трудности решаются с помощью средств 
теории лексикографических систем [1, 2] и алгебры конечных предикатов (АКП) [3, 4]. 


Постановка проблемы и цели исследования 

Задача построения электронного словаря представляет собой трудоёмкую 
многоэтапную процедуру. Исходными данными являются отсканированные страницы 
печатных словарей, которые необходимо перевести в электронную форму. Для этого 
необходимо решить проблему корректуры отсканированных текстов. После получения 
сырых данных, возникают проблемы, связанные с их представлением, обработкой и 
хранением. В данной работе требуется обработать отсканированные тексты словарных 
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статей печатного словаря, используя различные приемы, и исследовать аспекты орга- 
низации модели данных для трёхъязычного словаря. Данные проблемы необходимо 
решить для русско-украинского словаря по информатике и радиоэлектронике. После 
перевода в электронную форму, двуязычный русско-украинский словарь необходимо 
преобразовать в трехъязычный русско-украинско-английский словарь. 

Подход к ообработке отсканированных текстов 

Процесс создания электронных словарей обычно включает следующие этапы: 

а) сканирование и распознавание словарных статей; 

6) корректура полученного текста; 

в) разбиение текста словаря на массив отдельных словарных статей; 

г) декомпозиция массива словарных статей по формальным признакам [2]. 

Исходными данными словаря являются отсканированные и распознанные 
документы в формате «4ос». Это - бинарный формат хранения файлов. используемый 
программой М$\/ога. 

Принципом построения словаря является алфавитно-гнездовой [5]. Заголовочным 
словом является русское слово-термин. Гнездо включает терминологические слово- 
сочетания, элементом которых является заголовочный термин. Терминологические 
словосочетания строятся таким образом, чтобы тильда была на первом месте. 

Напрямую эти данные из файла достать довольно затруднительно из-за 
внутренних особенностей формата «4ос». Также сам распознанный текст находится в 
различных секциях документов и содержит большое количество ошибок 
распознавания, что затрудняет извлечение правильной информации (рис. 1). 
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Рис. 1 Пример входных данных 


Наименее трудоемким подходом для извлечения необходимой информации, в 
данном случае, является доступ к содержимому посредством технологии ОЁйсе СОМ 
АчютаНоп [6]. М$\ог4 предоставляет интерфейсы для доступа к содержимому 
документов. Таким образом, словарные статьи можно перевести в текстовый 
юникодный формат как промежуточный вариант. С одной стороны, данные получаются 
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не отягощенными информацией о форматировании, с другой стороны, юникод 
позволяет сохранять все символы любого языка, благодаря чему тексты можно 
использовать для дальнейшей обработки. 

После перевода в текстовый формат, в словарных статьях обнаружилось много 
ошибок из-за неправильно распознанных символов, неверно распознанных знаков 
переносов, пустых строк и т.д. В то же время, в этих ошибках присутствовали 
определенные регулярности, что позволило организовать исправление данных ошибок 
в автоматизированном режиме. Каждый новый термин начинается с новой строки, а 
ошибочные символы «новой строки» можно выявить при помощи регулярных 
выражений. Все ударные буквы оказались неправильно распознанными, но 
единообразно, благодаря чему их удалось исправить простой заменой. Ударные буквы, 
после лексического разбора текста, помечаются символом «#». 

При переносе данных из формата МЗ\У/огА все словосочетания были 
пронумерованы, поэтому поиск неправильных вхождений переводов строк был 
возможен при помощи регулярных выражений типа «^\4\.$» («\\.» — служебная цифра 
с точкой для нумерации перевода, добавленная в начало каждой строки). Аналогичным 
образом были выявлены неправильные скобки. В общем случае регулярные выражения 
неприменимы для определения скобок. Однако, такой подход оказался приемлем, 
поскольку отсутствовали сложные вложенные структуры скобок. Большинство 
неправильных скобок не имели пару. Обычно это случалось из-за того, что разрыв 
слова происходил в неправильном месте при распознавании. 

Пример из разбитого на переводы строк, но необработанного, файла: 


1.(моно, не)хроматеческая ( 
2.моно, не)- хроматечна аберацая) 


1.(-витйк 
2.ампар-випик 


В первом случае скобка из верхней строки должна принадлежать нижней, во 
втором скобка — артефакт распознавания. Такие случаи необходимо было найти и, 
соответственно, можно было использовать выражения типа «\([^\)|*?$». 

Выявление неправильных дефисов оказалось самой трудоемкой частью. Чаще 
всего они приходились на перенос слова, из-за чего нарушалась структура изложения 
терминов. Благодаря этим нарушениям, при помощи регулярных выражений, такие 
места были найдены и исправлены почти для всех случаев. Такие проблемные символы 
были найдены при помощи регулярных выражений типа «-\5*$». Остальные дефисы 
пришлось исправлять в ручном режиме. 

При дальнейшем анализе текстов, удалось выбрать отрасль, семантику 
(расширенное описание), изменяемую часть слов и прочее. В дальнейшем эти данные 
пригодились для заполнения внутренних структур словаря. 

Модель данных трехъязычного словаря 

После получения сырых распознанных и откорректированных данных, возникают 
проблемы, связанные с их обработкой, хранением и представлением пользователю. 
Одной из главных причин, возникающих на пути решения указанных проблем, 
является сложная структура лингвистического материала. Отсюда вытекает сложность 
организации модели данных. Часть проблем и подходов к их решению была описана 
для двуязычного словаря и лексикографических систем в целом [1, 2]. 
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На верхнем уровне внутренняя структура двуязычного словаря обычно 
представляется следующим образом: в общих чертах, опуская особенности слов, 
каждому термину ставится в соответствие его переводной эквивалент или список 
эквивалентов, которые могут быть как синонимами, так и иметь другой смысл. Из 
набора таких эквивалентов состоит словарь. Обычно, один из языков является 
основным и переводы даются относительно этого языка. Данный случай — это пример 
отношения один ко многим. В случае, если перевод осуществляется в обе стороны, то 
появляется второй аналогичный список для другого языка. Для хранения содержимого 
словаря в электронной форме будут использованы таблицы для хранения переводных 
эквивалентов и связей между ними. При этом получаются связи многие ко многим. При 
переходе к созданию трёхъязычного словаря, особенно, если планируется, что все три 
языка должны быть равноправными, появляется проблема построения связей между 
переводными эквивалентами, поскольку количество связей растёт пропорционально 
количеству языков (рис. 2). 


Г Русский язык 
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Рис. 2 Лавиноподобный рост количества связей при добавлении третьего языка 


Одним из вариантов решения данной проблемы может являться вынос связей в 
отдельную сущность. Благодаря такому подходу, термины, терминологические 
словосочетания и связи между переводами для разных языков будут храниться 
отдельно, но упорядочено. При этом остается проблема семантического перевода для 
конкретного термина, то есть в некоторых ситуациях может потребоваться получить 
информацию только о какой-то конкретной семантике слова. 

Другим подходом для решения данной проблемы предлагается введение 
дополнительного уровня косвенности, которым будет являться абстракция, 
обозначающая семантику термина. Это позволит, с одной стороны, перейти от 
отношения многие ко многим к отношению один ко многим (рис. 3), с другой стороны, 
появится четкая привязка термина к семантике, с третьей стороны, при дальнейшем 
развитии словаря, терминам можно будет легко добавлять толкования. 
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Рис. 3. Предлагаемая модель хранения данных 


Таким образом, данный подход к построению трёхъязычного словаря позволит 
перейти от двуязычного словаря не только к трёхъязычному, но и многоязычному (с 
некоторыми ограничениями) словарю. 

Заключение 

Таким образом, были обработаны отсканированные тексты терминологического 
русско-украинского словаря по информатике и радиоэлектронике. Предложен подход к 
организации модели данных для трёхъязычного русско-украинско-английского 
терминологического словаря. При построении модели удалось уйти от некоторых 
проблем, которые возникали в ранее построенных словарях [1, 5]. Так, удалось авто- 
матизировать корректировку входных данных [6], применив регулярные выражения в 
частности. Для формализации языковой информации, использовалось понятие семан- 
тического состояния языковой единицы. Очевидно, что поход к построению трёхъязыч- 
ного словаря можно также применить и для словарей с большим количеством языков. 

Достоинством данного подхода является равноправие языков, благодаря чему 
появляется возможность выбора основного языка, в зависимости от требований 
специалиста, работающего со словарем. 
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ВЕЗОМЕ 

О.5 РижК, У.У Кигазота, С.С. СпеуегКоу 

А5ресё5 оГ 4аба тоде! ограшиайоп о? @есгошес иИтоца! @сИопагу 

Те агае 4езстез арргоасНе$ {0 огсап1те даёа то4е! Рог иПШпеиа| Ч1сНопамез. ТВе 
Виз1ап-ОКгаииап 1егило]о21са! @сйопагу ог шЮппайс$ ап4 гадФю еесгоп1с$ ш рарег 
Гогт 1$ Фе Базе Рог еесмоп1с иШиеца| @сйопагу. ТБе гоа| оЁР Фе ууогК 15 юЮ ехфасЕ даа 
Кот зсаппе4 разез, регги сотгеснопз$ {0 ешитае ог а& [еа5{ гедисе питЪег оЁ шсогтесИу 
гесо2т12е4 \/ог@$. А1зо Фе гоа| 15 ю шуезисае азрес оЁ даёа то4е| отеатшханоп Юг 
иШтпеа1 ЧсНопахту. 

ЭЗфасез о сопзфгасНоп оЁ е|есгошс @сйопамез аге дезсге4 аз КоПо\лпе: 

а) Зсаппте апа тесост оп оЁ ЧсНопагу агис]ез. 

Ь) Сотесйоп оЁтесортихеа {ех5. 

с) ЭрШи? {ех{5 ю ап аггау о 5ерагае агие епётез. 

4) Ресотроз1оп оЁ 1е алгау Бу юпа! сВагасет$Нс$. 

Сопзбгасйоп ргшстре оР Ше @ФсНопагу 1$ а1рБабейс-пезе4. бо Кеа@те фепт 1$ 
Киззап. Тре пезё шса4е$ {егт’5 \уога-сот6тайоп$ усн сомат Беате угог4 аз опе оЁ 
е!етеп. ОКгаимап бапайоп едлиуаеп сотгезроп@ № от4ег ш Кизуап \уога 
сотЫпайноп$. Тниз Ше сопзгисной ргшст]Ре 1$ Ше теазоп \Пу \№е сап рагзе шри 
ашюотайсаПу. [55иез \/№сЬ ргеуепе изше Чайа зюгед ш “ос” огта{ ЧтесЙу аге апайугеч. 
ОЁйсе СОМ Апютаноп {есНпо]оэу 15 зассез{е4 аз а \ау ю вап е зсаппе4 ап4 гесози1те4 
три! даа зоге4 ш “4ос” Гогтае. Веошаг ехргезз1оп$ аге 13е4 аз \ау тю Их 155ие$ саизеа Бу 
тесори! оп еггог$ оРГОСВ еп?тез. 

Туо Чегет арргоасбез №0 5юге рагзе4 @сйопагу Чайа аге сопз14егед. ТНе агяе 
по{е$ фай шсгеазште питЬег оЁ 1апоиасез ш шаШпена| @сйопаме$ саизез ауа]апсве-ПКе 
шсгеазше питБег оЁ те|анопз1р$ Бебмееп Напаноп еашуа|епт. ТВе зва4у $12065 
ехгасипе абзёгас зетапйс епёбу оуег еасВ тапз1айоп еадуаеп{ 0 ауо14 зись 1554е. \ога$ 
УИ Фе зате зетапйс у\уШ сопзиласё фе {епт епщу. ТЬ1$ арргоасн аПо\з$ ехрап4те 
ит еа1 @сНопагу уу офег |апоиазез, ехр]апайоп$ Гог еасН {епт ап $0 оп. 
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